We propose a principled way to define Gaussian process priors on various sets of unweighted graphs: directed or undirected, with or without loops. We endow each of these sets with a geometric structure, inducing the notions of closeness and symmetries, by turning them into a vertex set of an appropriate metagraph. Building on this, we describe the class of priors that respect this structure and are analogous to the Euclidean isotropic processes, like squared exponential or Mat\'ern. We propose an efficient computational technique for the ostensibly intractable problem of evaluating these priors' kernels, making such Gaussian processes usable within the usual toolboxes and downstream applications. We go further to consider sets of equivalence classes of unweighted graphs and define the appropriate versions of priors thereon. We prove a hardness result, showing that in this case, exact kernel computation cannot be performed efficiently. However, we propose a simple Monte Carlo approximation for handling moderately sized cases. Inspired by applications in chemistry, we illustrate the proposed techniques on a real molecular property prediction task in the small data regime.
translated by 谷歌翻译
图像重新定位旨在更改图像大小,同时保留重要内容并最大程度地减少明显的扭曲。但是,先前的图像重新定位方法创建了遭受工件和扭曲的输出。此外,大多数以前的作品都尝试同时重新定位输入图像的背景和前景。同时调整前景和背景会导致对象的长宽比的变化。纵横比的变化对于人类对象并不理想。我们提出了一种克服这些问题的重新定位方法。提出的方法包括以下步骤。首先,一种涂上方法使用输入图像和前景对象的二进制掩码来生成背景图像,而无需任何前景对象。其次,接缝雕刻方法将背景图像调整到目标大小。然后,一种超分辨率方法增加了输入图像质量,然后提取前景对象。最后,将重定位的背景和提取的超级分辨对象馈入粒子群优化算法(PSO)中。 PSO算法使用审美质量评估作为其目标函数,以确定将对象放置在背景中的最佳位置和大小。我们使用图像质量评估和美学质量评估措施来显示我们与流行的图像重新定位技术相比的优越结果。
translated by 谷歌翻译
我们提出了Panohdr-nerf,这是一种新颖的管道,可随意捕获大型室内场景的合理的全HDR辐射场,而无需精心设计或复杂的捕获协议。首先,用户通过在场景中自由挥舞现成的摄像头来捕获场景的低动态范围(LDR)全向视频。然后,LDR2HDR网络将捕获的LDR帧提升到HDR,随后用于训练定制的NERF ++模型。由此产生的Panohdr-NERF管道可以从场景的任何位置估算完整的HDR全景。通过在一个新的测试数据集上进行各种真实场景的实验,并在训练过程中未见的位置捕获了地面真相HDR辐射,我们表明PanoHDR-NERF可以预测任何场景点的合理辐射。我们还表明,PanoHDR-NERF产生的HDR图像可以合成正确的照明效果,从而可以使用正确点亮的合成对象来增强室内场景。
translated by 谷歌翻译
许多重要的学习算法,例如随机梯度方法,通常被部署以解决Riemannian歧管上的非线性问题。在这些应用中,我们提出了一个概括和扩展Robbins和Monro的精确随机近似框架的Riemannian算法家族。与他们的欧几里得对应物相比,由于歧管上缺乏全局线性结构,Riemannian迭代算法的理解要少得多。我们通过引入扩展的费米坐标框架来克服这一困难,该框架使我们能够绘制拟议的Riemannian Robbins-Monro(RRM)算法类别的渐近行为,以在基础歧管上非常轻微的假设下,在相关的确定性动力学系统下的算法。这样一来,我们提供了一个几乎肯定的收敛结果的一般模板,该模板镜像并扩展了欧几里得robbins-Monro方案的现有理论,尽管其分析要大得多,需要大量的新几何成分。我们通过使用该框架来建立基于回缩的类似物的融合来展示提出的RRM框架的灵活性,以解决最小化问题和游戏的流行乐观 /额外梯度方法,并且我们为其收敛提供了统一的处理。
translated by 谷歌翻译
我们提出了一种从单个图像中推断360 {\ deg}视野的方法,该图像允许用户控制的综合外部绘制内容。为此,我们建议改进现有的基于GAN的镶嵌体系结构,以进行底漆全景图表。我们的方法获得了最先进的结果,并且优于标准图像质量指标的先前方法。为了允许受控的外部修饰的合成,我们引入了一个新型的指导共调整框架,该框架通过常见的鉴别模型驱动图像生成过程。这样做可以保持生成的全景图的高视觉质量,同时在推断的视野中启用用户控制的语义内容。我们在定性和定量上展示了我们方法的最新方法,从而提供了对我们新颖的编辑功能的彻底分析。最后,我们证明我们的方法受益于在照片中对高光泽对象的影片虚拟插入。
translated by 谷歌翻译
Compared to regular cameras, Dynamic Vision Sensors or Event Cameras can output compact visual data based on a change in the intensity in each pixel location asynchronously. In this paper, we study the application of current image-based SLAM techniques to these novel sensors. To this end, the information in adaptively selected event windows is processed to form motion-compensated images. These images are then used to reconstruct the scene and estimate the 6-DOF pose of the camera. We also propose an inertial version of the event-only pipeline to assess its capabilities. We compare the results of different configurations of the proposed algorithm against the ground truth for sequences of two publicly available event datasets. We also compare the results of the proposed event-inertial pipeline with the state-of-the-art and show it can produce comparable or more accurate results provided the map estimate is reliable.
translated by 谷歌翻译
Covid-19是一种攻击上呼吸道和肺部的新型病毒。它的人对人的传播性非常迅速,这在个人生活的各个方面都引起了严重的问题。尽管一些感染的人可能仍然完全无症状,但经常被目睹有轻度至重度症状。除此之外,全球成千上万的死亡案件表明,检测Covid-19是社区的紧急需求。实际上,这是在筛选医学图像(例如计算机断层扫描(CT)和X射线图像)的帮助下进行的。但是,繁琐的临床程序和大量的每日病例对医生构成了巨大挑战。基于深度学习的方法在广泛的医疗任务中表现出了巨大的潜力。结果,我们引入了一种基于变压器的方法,用于使用紧凑卷积变压器(CCT)自动从X射线图像中自动检测COVID-19。我们的广泛实验证明了该方法的疗效,精度为98%,比以前的作品表现优于先前的作品。
translated by 谷歌翻译
光学相干断层扫描(OCT)有助于眼科医生评估黄斑水肿,流体的积累以及微观分辨率的病变。视网膜流体的定量对于OCT引导的治疗管理是必需的,这取决于精确的图像分割步骤。由于对视网膜流体的手动分析是一项耗时,主观和容易出错的任务,因此对快速和健壮的自动解决方案的需求增加了。在这项研究中,提出了一种名为Retifluidnet的新型卷积神经结构,用于多级视网膜流体分割。该模型受益于层次表示使用新的自适应双重注意(SDA)模块的纹理,上下文和边缘特征的学习,多个基于自适应的Skip Connections(SASC)以及一种新颖的多尺度深度自我监督学习(DSL)方案。拟议的SDA模块中的注意机制使该模型能够自动提取不同级别的变形感知表示,并且引入的SASC路径进一步考虑了空间通道相互依存,以串联编码器和解码器单元,从而提高了表示能力。还使用包含加权版本的骰子重叠和基于边缘的连接损失的联合损失函数进行了优化的retifluidnet,其中将多尺度局部损失的几个分层阶段集成到优化过程中。该模型根据三个公开可用数据集进行验证:润饰,Optima和Duke,并与几个基线进行了比较。数据集的实验结果证明了在视网膜OCT分割中提出的模型的有效性,并揭示了建议的方法比现有的最新流体分割算法更有效,以适应各种图像扫描仪器记录的视网膜OCT扫描。
translated by 谷歌翻译
当网络条件恶化时,视频会议系统的用户体验差,因为当前的视频编解码器根本无法在极低的比特率下运行。最近,已经提出了几种神经替代方案,可以使用每个框架的稀疏表示,例如面部地标信息,以非常低的比特率重建说话的头视频。但是,这些方法在通话过程中具有重大运动或遮挡的情况下会产生不良的重建,并且不会扩展到更高的分辨率。我们设计了Gemino,这是一种基于新型高频条件超分辨率管道的新型神经压缩系统,用于视频会议。 Gemino根据从单个高分辨率参考图像中提取的信息来增强高频细节(例如,皮肤纹理,头发等),为每个目标框架的一个非常低分辨率的版本(例如,皮肤纹理,头发等)。我们使用多尺度体系结构,该体系结构在不同的分辨率下运行模型的不同组件,从而使其扩展到可与720p相当的分辨率,并且我们个性化模型以学习每个人的特定细节,在低比特率上实现了更好的保真度。我们在AIORTC上实施了Gemino,这是WEBRTC的开源Python实现,并表明它在A100 GPU上实时在1024x1024视频上运行,比比特率的比特率低于传统的视频Codecs,以相同的感知质量。
translated by 谷歌翻译
本文提议使用修改的完全连接层转移初始化,以进行1900诊断。卷积神经网络(CNN)在图像分类中取得了显着的结果。但是,由于图像识别应用程序的复杂性,培训高性能模型是一个非常复杂且耗时的过程。另一方面,转移学习是一种相对较新的学习方法,已在许多领域使用,以减少计算来实现良好的性能。在这项研究中,Pytorch预训练的模型(VGG19 \ _bn和WideresNet -101)首次在MNIST数据集中应用于初始化,并具有修改的完全连接的层。先前在Imagenet中对使用的Pytorch预培训模型进行了培训。提出的模型在Kaggle笔记本电脑中得到了开发和验证,并且在网络培训过程中没有花费巨大的计算时间,达到了99.77%的出色精度。我们还将相同的方法应用于SIIM-FISABIO-RSNA COVID-19检测数据集,并达到80.01%的精度。相比之下,以前的方法在训练过程中需要大量的压缩时间才能达到高性能模型。代码可在以下链接上找到:github.com/dipuk0506/spinalnet
translated by 谷歌翻译